busca                package:unknown                R Documentation

~~Função que busca uma palavra ou pedaço de palavra em um texto no formato “.txt” ~~

Description:

     ~~ Uma busca de termos ou palavras em um texto de origem. ~~

Usage:

     ~~busca <- function(x, file, exato= FALSE, sep=" ", encoding="unknown", ignore.acento= FALSE)  ~~

Arguments:

 ~~
x		padrão de busca: palavra ou termo a ser buscado.
file 		arquivo .txt em que se deseja realizar a busca.
exato 		se FALSE, busca quaisquer palavras que contenham o padrão de busca indicado. Se TRUE, busca o termo exatamente como foi escrito.
sep 		por padrão, o texto será separado palavra por palavra (separador é um espaço.
encoding	tipo de encoding do arquivo.txt indicado. Se o padrão for “latin1” ou “UTF-8”, a leitura será realizada com os caracteres desses padrões. 
ignore.acento 	se FALSE, busca caracteres especiais. Se TRUE, ignora acentos ou caracteres especiais tanto do padrão de busca indicado, quanto do texto a ser lido.
~~ 

Details:

     ~~ 
A função lê apenas arquivos e o vetor resultante será da classe “character”.

Caso o separador indicado seja diferente de espaço, a função retornará também o resultado com esse separador. Essa característica permite que o usuário identifique prontamente quais  as palavras correspondentes ao padrão de busca e realizar cálculos de frequência. Separadores comuns são: “\n” para fim de linha, “\t” para tabulação, “.” para ponto final.

A função não permite que o usuário substitua o encoding de um texto. O original usado deve estar em um padrão conhecido e aceito pelo r. Sugere-se “UTF-8” como padrão de gravação de arquivos.
     ~~

Value:

     ~
Se o separador for espaço, a função retorna a posição e termo encontrado na busca em um data.frame. Além disso, retorna em uma frase o resumo do total de ocorrências encontrado.

Se o separador for diferente de espaço, a função retorna duas listas. A primeira com a posição e a linha de ocorrência em um data.frame e o resumo de linhas que continhas o termo buscado. A segunda lista retorna a posição e termo encontrado na busca em um data.frame. Além disso, retorna em uma frase o resumo do total de ocorrências encontrado.


Note:

     ~~
Os possíveis erros encontrados se relacionam com problemas de encoding do arquivo fonte. Uma forma simples de resolver tal problema é criar uma nova cópia do arquivo, com o .txt de encoding UTF-8. Arquivos originais de word não são salvos nesse enconding, mas é possível modificá-lo no salvamento do .txt.
 ~

Author(s):

     ~~Renata de Paula Orofino~~

References:

     ~https://stat.ethz.ch/R-manual/R-devel/library/base/html/Encoding.html
http://www.joelonsoftware.com/articles/Unicode.html
~

See Also:

     ~~ scan() para compreender como a leitura do arquivo texto foi realizada ~~~

Examples:

     ##Arquivo texto para uso nos exemplos em: http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:01_curso_atual:alunos:trabalho_final:renata.paula.silva:start
##Busca de termo com separador espaço e ignorando acentos
> busca(x="te",file="text1.txt",sep=" ", encoding="latin1", ignore.acento=TRUE)
Read 194 items
[[1]]
[1] "10 resultado(s)"

[[2]]
   posicao       linha
1        4      tenis,
2       46       tenis
3       81      tenis.
4       95     somente
5       97 tecnologia,
6      127      tenis.
7      134       tenho
8      156       tenho
9      173       tenis
10     180     somente

##Busca de termo com separado “.” e ignorando acentos
> busca(x="há",file="text1.txt",sep=".", encoding="latin1", exato=TRUE, ignore.acento=TRUE)
Read 14 items
Read 194 items
[[1]]
[[1]][[1]]
[1] "1 linha(s) contém palavra buscada"

[[1]][[2]]
  posicao linha
1       1	Ha quem considere tenis, uma coisa horrenda e que nao orna com nada a nao ser legging ou roupa de academia
                                                                                                        
[[2]]
[[2]][[1]]
[1] "1 resultado(s)"

[[2]][[2]]
  termo
1    Ha     

##Busca de palavra exata com separador “.” 
> busca(x="tenho",file="text1.txt",sep=".", encoding="latin1", exato=TRUE)
Read 14 items
Read 194 items
[[1]]
[[1]][[1]]
[1] "2 linha(s) contém palavra buscada"

[[1]][[2]]
  posicao linha
1      11	E sim, tenho saído cada vez mais de casa com eles e em looks nada esportivos
2      12	Por isso, peguei minha pastinha de imagens que tenho no HD e achei que deveria compartilhar com vocês, como algo de utilidade pública mesmo, afinal, tênis são caros 		e é judiação deixá-los somente para fazer atividade física (mesmo que isto implique todos os dias hahahah)
 
[[2]]
[[2]][[1]]
[1] "2 resultado(s)"

[[2]][[2]]
  termo
1 tenho
2 tenho

